#V3.2 正式版
DeepSeek V3.2 正式版發佈,V4 還沒來,但已經是開源模型裡 Agent 能力最強了
DeepSeek 又更新了,依舊是迭代了一年的 V3 系列,但這次給出的是 V3.2 正式版。9 月底,DeepSeek 推出了實驗性模型 DeepSeek-V3.2-Exp,在 V3.1-Terminus 的基礎上,引入了 DeepSeek Sparse Attention(DSA)技術,大幅提升了長文字處理的效率。今天,發佈的兩個正式版模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale,重點在推理、以及 Agent 能力的提升。DeepSeek-V3.2-Speciale 作為開源模型,在 IMO 2025、CMO 2025 等主流推理基準測試上的性能表現媲美 Gemini-3.0-Pro。有意思的是,Deepseek 在前幾天剛剛發佈了一個數學模型 DeepSeek-Math-V2,正是基於 DeepSeek-V3.2-Exp-Base 開發。這個數學模型實現了 IMO 金牌級的水平。同時,這次 V3.2 正式版發佈最值得一提的是,把思考過程融入到了工具呼叫中,模型能夠同時支援思考模式和非思考模式的工具呼叫。在各類智能體工具呼叫評測集上,DeepSeek-V3.2 達到了目前開源模型的最高水平。DeepSeek 官方稱,模型未針對測試集進行特殊訓練,在真實場景中顯示出了較強的泛化能力。目前,正式版 DeepSeek-V3.2 已在網頁端、App 和 API 上線。Speciale 版本以臨時 API 形式開放。API 支援 DeepSeek-V3.2 思考模式下的工具呼叫能力。技術報告:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf01 V3 版本迭代了一年,V4 還是沒來去年 12 月 25 日發佈的 DeepSeek V3,今年 1 月 20 日發佈的 DeepSeek R1,R1 也正式引爆了這一年的 DeepSeek 和國內開源模型的熱潮,Kimi、MiniMax 等也相繼開源,並且取得了不錯的成績。不過梳理了 DeepSeek2025 年的發佈可以發現,今年一直在走小版本迭代和功能累加的路線。核心增強的點是:MoE 本身架構的一些改進,包括強化、DSA 等。Agent 工具使用能力的強化,從 V3.1 開始對工具使用能力的強化,到 3.2 增加思考模式下的工具使用能力,而且有了更泛化的工具使用能力。思考/非思考模型的統一,V3.1 就統一了 R1 和 V3,成為了一個混合推理模型,這也是當下閉源模型的大勢所趨,Gemini、Claude 和 GPT-5 都是這樣。DeepSeek 2025 年的發佈梳理和 V3.1-Exp 版本類似,這次也發佈了一個測試版本:DeepSeek-V3.2-Speciale,DeepSeek-V3.2 的長思考增強版,同時結合了 DeepSeek-Math-V2 的定理證明能力,試圖將開源模型的能力推到極致的版本,也許在這個測試之後,可能 V3.3(如果有的話)也會持續在這個版本上迭代。從年終就開始謠傳的 DeepSeek V4 或者 R2 即將發佈,到現在,我們也沒看到 DeepSeek 基模的大版本發佈。如果 Agent 的工具能力繼續在 V3 版本進行增強,對於明年要發佈的大版本(應該會在明年吧),感覺可以期待的東西似乎更多了,比如多模態?更長的上下文?更厲害的 Agent 能力?很期待 DeepSeek 下一個版本,我們能見到 V4。02 正式版 DeepSeek-V3.2:推理能力達到 GPT-5 水平DeepSeek-V3.2 的目標是平衡推理能力與輸出長度,適合日常使用,例如問答場景和通用 Agent 任務場景。在公開的推理類 Benchmark 測試中,DeepSeek-V3.2 達到了 GPT-5 的水平,僅略低於 Gemini-3.0-Pro;相比 Kimi-K2-Thinking,V3.2 的輸出長度大幅降低,顯著減少了計算開銷與使用者等待時間。DeepSeek-V3.2-Speciale 的目標則是將開源模型的推理能力推向極致。它是 V3.2 的長思考增強版,並結合了 DeepSeek-Math-V2 的定理證明能力。Speciale 版本模型在主流推理基準上的表現與 Gemini-3.0-Pro 不相上下。同時,在多項頂級學術競賽中達到金牌水平,包括 IMO 2025(國際數學奧林匹克)、ICPC 2025(國際大學生程式設計競賽)等,其中 ICPC 和 IOI 的成績分別達到了人類選手第二名和第十名的水平。但 Speciale 版本 是針對高度複雜任務最佳化,消耗的 Token 更多、且成本更高,目前僅供研究使用,不支援工具呼叫,未針對日常對話最佳化。DeepSeek-V3.2 與其他模型在各類數學、程式碼與通用領域評測集上的得分(括號內為消耗 Tokens 總量約數)03 工具呼叫也能 thinking 了本次更新的一個核心突破是將思考過程融入工具呼叫。DeepSeek-V3.2 同時支援思考模式與非思考模式的工具呼叫。DeepSeek 提出了一種大規模 Agent 訓練資料合成方法,建構了大量「難解答,易驗證」的任務,顯著提升了模型的泛化能力。DeepSeek-V3.2 與其他模型在各類智能體工具呼叫評測集上的得分在各類智能體工具呼叫評測集上,DeepSeek-V3.2 達到了當前開源模型的最高水平,大幅縮小了與閉源模型之間的差距。但模型並未針對測試集進行特殊訓練,在真實場景中具有較強的泛化性。 (Founder Park)